比Siri还聪明的语音技术？AIUI的7个与众不同之处

2016-03-25 王智国 科大讯飞

每一次IT的革命浪潮，都伴随着一次人机交互的变革。AIUI是Artificial Intelligence User Interface的简称，是科大讯飞在人工智能时代开发的一款产品，在过去5年的发展中，已经成为业界最大的语音和语言技术的开发平台，它的与众不同之处在哪呢？

一 AIUI 提出的背景

IT产业从上个世纪六十年代到现在经历了五次的革命浪潮。上世纪六十年代的大型机时代、七十年代进入了小型机的时代、八十年代的个人电脑时代、九十年代的桌面互联网时代、现在的移动互联网和物联网的时代。

每一次IT的革命浪潮，都伴随着一次人机交互的变革。

我们进入崭新的万物互联的时代。在这个时代下各种智能设备、智能硬件、智能家居都需要互联互通，同时它们也需要和人进行各种交互。物联网时代，智能硬件有着一些共同的特性——无屏、移动、远场的状态下，以语音为主（人和人之间语音交互是最为自然的方式）、键盘、触屏等为辅的人机交互时代正在到来，将引领整个产业的变革。

我们对语音交互其实并不陌生，5年前讯飞就发布了讯飞语音云开放平台；智能手机平台上，如苹果的Siri，微软的Cortana等语音助手，大家也都熟悉。

讯飞语音云开放平台在过去5年的发展中，已经成为业界最大的语音和语言技术的开发平台。从技术方案上，包括语音听写，人脸识别、语音唤醒、语音合成，最大最全的解决方案；从核心效果上，也是业界领先；从应用规模上，在讯飞语音云平台上开发的应用数突破11万，累计装机用户数超过8亿。

近几年是智能手机的时代，从去年开始迎来了智能硬件和机器人的全面爆发，当你对着手机进行语音识别和对着机器人进行语音识别是完全不同的交互模式。

过去讯飞语音开放平台可以在手机应用上开发出不错的语音应用，现在在智能硬件上对整个语音交互方案提出更高更新的要求。与手机语音交互，对比与机器的语音交互，是两种完全不同的交互模式。需要一种新的语音交互技术，使人与机器的语音交互可以像人和人一样自然。

二人和人之间是如何进行自然语音交互？

全双工——可以随时打断。
多轮对话——一个话题，不会一次全说完，而是依此对答。
纠错——如果出现错误，可以用语言纠错。
远场降噪——不需要对着耳朵讲
方言识别。

新的交互需求，是过去的业界语音识别技术所不能解决的。因此迫切需要研发一种新的交互解决方案，可以让人和机器如同人和人的交流问答。

AIUI就这么诞生了，AIUI人工智能时代的最佳人机交互界面。

三 AIUI的7个与众不同之处

1. 降低开发门槛

过去做语音交互的痛苦——首先调用别人的语音识别，再调用语义，中间有许多需要开发和设计的过程。

AIUI把整个麦克风阵列、语音唤醒、语音合成、语义交互和其他辅助交互打包成一个模块，从单点到方案，降低开发门槛，开发者集成起来非常简单便捷。

2. 远场交互

AIUI集成科大讯飞的麦克风陈列技术，实现高精确度的远场识音。

首先，科大讯飞的麦克风阵列技术可以实现5米以上距离识别率95%以上。因为智能硬件工作在家庭和办公室环境，而操控主人经常处于移动状态，需要360度声源定位，AIUI集成麦克风阵列解放方案可以将定位精确到5度。

同时智能硬件经常发出声音，比如放音乐、与人对话。为了实现全双工识别，智能硬件需要把自己的声音进行消除，我们在解决方案中集成了最好的第四代回声消除解决方案，在95dB高音下，唤醒率可以保持在很高的水平。

下图是整个识音和降噪的效果。

AIUI的降噪和噪声抑制效果是非常明显的，哪怕在家庭里的大型的电视机和音响设备的干扰下，依然能够保证较高的准确性。

整个AIUI麦克风阵列前段，提供了一个无与伦比的抗噪、高鲁棒性的语音识别解决方案，让后台用来理解的“大脑”有个非常好的“耳朵”。

3. 语音唤醒

语音唤醒对于全程Handfree 的解决很重要。智能硬件和手机是非常不同的，手机可以随时轻松的触摸一些屏幕和点一些键，而智能硬件往往距离我们比较远。这时候如果触摸一下键才能语音识别，就非常麻烦，所以要一种全程的语音交互解决方案，语音唤醒就起到这样的作用，你喊一下它的名字，它就开始听你的话。

科大讯飞语音唤醒技术：

运用了深度学习的解决方案，实现唤醒率极高，误唤醒率极低，功耗极低。同时还可以满足开发者和用户进行自定义的唤醒词，满足用户起个性化的唤醒词的需求。

提供自动闭环优化系统。有些用户觉得唤醒效果不好，我们可以运用他的语音数据进行自动训练，可以让他的语音唤醒达到一个非常好的效果。

高效鲁棒的语音唤醒系统，保证了我们可以和智能硬件可以进行全程语音交互。

4. 多轮对话

举个栗子，比如我要找人问路，我会把地方名称先说一下，被我问的人，可能会有一些奇异，就会问我，大概在什么地方。地方有什么特征等等。当他把信息范围缩小到比较精确的时候，就会把路线指出来。真个交互是通过对话完成的。如果AIUI能拥有这样的技术，比如装在导航仪上，这个导航仪该有多贴心。幸运的是我们AIUI方案里集成了这样一种最新的对轮对话系统。它具有以下特点：

我们不需要在脑海中设计一种机器能听懂的语音，机器听不懂的时候，会主动发问，可以像人一样分解为多轮问答。
对话上下文相关，可以使用代词（他），会进行指代消解
利用否定词，可以进行纠错。

下图三个例子帮助大家理解交互场景：就和人的对话一样，很轻松~

5. 全双工

人和人交流，即使滔滔不绝，你也可以让他停止，改变话题。这种就叫做全双工通讯模式——发表意见和收听，可以并行进行；用户可以任何时间打断；机器对非相关语音可以拒识。

过去手机上没有这样的功能，人必须听完机器的反馈，才能进行下一个指令的输入，对用户有非常大的限制，交互不自然、不流畅。

AIUI可以实现全双工。机器的反馈和对人讲话的监听是并行同步的，人可以在任何时候对机器进行打断发出需求，同时用户在和机器交流的时候发出的非相关语音，机器可以有效具识。这样就把过去人和机器之间一问一答的交互方式升级为全双工交互方式，更加接近人和人的沟通。

为了实现全双工，需要应用很多技术，如回声消除、置信度判决、连续语音解密等。

6. 对话场景的自适应

包括两个小特性

智能断句：过去用户说完，需要停顿几秒钟，或者用户点一个讲话结束的按钮，机器才知道这句话说完了。现实中，人和人交流肯定不是这样的，经常会有犹豫，或者把两个不相关的内容连起来说而中间没有停顿。

举个栗子，用户说，“我想听~周杰伦的歌，好怀念他的声音啊”。可能第二句“好怀念他的声音啊”是和用户旁边的人讲的。过去的方案会把“我想听”和“周杰伦的歌”分开，而“周杰伦的歌”和“好怀念他的声音”分不开。AIUI集成科大讯飞的智能语义断句解决方案，听到“我想听”意识到用户没讲完，会智能等待一段时间，把后面“周杰伦的歌”拼在一起；而听到“周杰伦的歌”知道这句话讲完了，所以后面即使没有停顿，也能把“好怀念他的声音”切分出来。最大模式的更像与人交流一样，更加的自然，想犹豫就犹豫，想快速就快速，机器可以智能断句。

识别结果可以根据场景进行优化：比如说“Liu Liang”。没有上下文的时候，单独有音的时候，人可能都分不清。但是AIUI可以根据场景识别含义。

场景1是我想给“LiuLiang”打电话，“Liu Liang”是一个人——刘亮；
场景2是在和中国移动办理业务，“LiuLiang”——流量。

7. 通信协议

为了实现全双工，机器要一边讲话一边检测，对通信协议有非常高的要求，需要达到像IP电话这样的效果，几乎没有延时。如果是对讲机模式（微信），大家可以等，对通信的延时要求不高。如果要像人一样反应灵敏，必须有一种无延时的通信协议。

我们通过努力，终于攻克了这个难题，实现了这样的通信协议，只要在带宽保证的情况下，人和机器可以流畅对话。

四 AIUI物理实现与核心改变

AIUI是一种云+端的物理实现

在云的层面，主要承载交互能力，互动界面，和业务分发的架构。
在端的层面，提供面向开发者的简易接口，和云的通信协议的集成。

AIUI核心改变

五 AIUI怎么来获取？

非常简单，四个字——一键获取

软硬件一体化、云端一体化、技术服务一体化；针对各种平台进行适配；

比如：麦克风整列提供线型麦克风、环型麦克风、球型麦克风、以及2麦、4麦、8麦、15麦等各种形态。开发者只要进行模块化的选取，进行集成，就可以和云端的AIUI的服务平台进行流畅的交互，让你的智能硬件飞起来。

六 关于AIUI的未来

AIUI还不够尽善尽美，未来有很多应用领域（智能家居、穿戴式设备、机器人……），让智能硬件可以像人一样能听会说，能理解、会思考。非常的体贴人心。

科大讯飞会像对待孩子一样，持续拓展AIUI工作场景，持续打磨AIUI交互服务，持续丰富AIUI交互内容。以开放的心态迎接伙伴和内容的接入，共同打造人工智能时代，像人一样的智能设备。

Q & A

1. 机器人能识别人的情绪吗？

有专门的研究领域，叫“情感识别”，但是很难，因为情绪是多模态的，比如可以通过声调、肢体语言，而且有时候人说比如讽刺的话等等，机器是完全听不出来的。

所以说，机器人识别人的情绪可以做到一定的效果，但是还不够实用。

2. 使用人工智能语音识别是否可以理解我们的语音表达的内容？

是的，AIUI就是在做这个。虽然不能做到人一样全领域进行交互，但是在快速发展中。我们相信在一定时间可以做到，在一些领域，机器可以很懂认得问题。比如做一个音乐机器人，在音乐领域可以很懂和人交互；比如做一个导航机器人，是个认路专家，在认路导航方面可以和人很好的交流。

3. 预测10年的语音识别会发展到何种程度？

根据我现有的知识和经验，3-5年整个计算机对语音的识别能力基本上可以达到人耳的水平。机器可以布置很多“人耳”，有可能超过人的听觉效果。

4. 关于强AI和弱AI~

这个问题很大，只能很据我们的方案来谈。坦白讲，目前我们的AI解决方案，还是一种弱AI的解决方案，和人的工作和解决模式是完全不同的。科大讯飞把语音识别做到现在的水平，也是收集了十几万小时的数据，这还是一种弱AI的解决方案。比如我们想从图形上识别一只猫，我们需要下载上千万的图片，各种品种、各种形态、放在各种背景下的猫。而人在学习语言只需要几百小时就够了，只需要见过一两次猫，再见到猫就可以识别。人的这种学习机理目前还不是很清楚。我们需要在强AI这种类人学习机理上做出新的创新。

5. 机器人和多个人交谈，可以知道和每个人交谈说什么，针对性的回答吗？

可以，机器需要在这种情况下，需要很多“耳朵”把各种人的交谈分离出来，然后就可以针对性进行回答。相当于利用技术把一个空间的额内容进行分离，然后分通道处理。

6.可以识别方言吗？

可以的，已经可以实现近20种方言。

7.语音识别发展到什么程度?可以识别音色吗？

95%的正确性，可以识别音色。

8.能不能直接识别音频，为视频做实时的字幕啊？

科大讯飞的“讯飞听见”语音转写系统，就是直接为视频识别，做实时字幕。

本文经授权发表于果壳空间

未经允许，谢绝转载

预告：本周六3月26日下午2点到4点，果壳空间将在北京举办“人工智能”主题的专场沙龙，科大讯飞的机器翻译研究主管王士进先生，将现场分享语音识别的前沿发展。

报名点击：阅读原文

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

故宫蛇年限定款藏书票，错过再等12年！

“湿冷魔法”攻击！鸟家三合一冲锋衣、羽绒服、软壳裤帮你抵挡